中科院自动化所王亮研究员:深度学习与视觉计算
导读
2016年12月,中国人工智能学会举办了第一期《人工智能前沿讲习班》,国内视觉大数据学者王亮老师做了题为《深度学习与视觉计算》的报告。王亮老师在报告中介绍了视觉大数据的概念与特征、深度学习的发展背景与在计算机视觉领域的应用现状。本文根据王亮老师当日报告内容整理发布,详见后文。
讲者简介
王亮,研究员,博士生导师。1997年和2000年分别获安徽大学工学学士和硕士学位,2004年获中国科学院自动化研究所工学博士学位。2004-2010年分别在英国帝国理工大学、澳大利亚莫纳什大学、澳大利亚墨尔本大学及英国巴斯大学工作,历任助理研究员、研究员和讲师。2010年入选中国科学院“百人计划”(终期优秀),2015年获得国家杰出青年科学基金,2016年获得第十四届中国青年科技奖,2018年入选首都科技领军人才培养工程。
目前是模式识别国家重点实验室副主任,中国计算机学会计算机视觉专委会秘书长,中国图象图形学学会视觉大数据专委会主任,中国电子学会青年科学家俱乐部副主席,中国图像视频大数据产业技术创新战略联盟秘书长,中科院脑科学与智能技术卓越中心骨干人才。王亮博士主要从事机器学习、计算机视觉、模式识别、数据挖掘等相关领域的研究工作。现已出版编(专)著7部,在主要的国内外学术期刊和国际学术会议上发表论文200余篇,谷歌引用1万余次。他现为或曾为IEEE TIFS、IEEE TSMC-B、PR等国际学术刊物的编委,曾获得中科院院长奖学金特别奖、中科院优秀博士论文及全国百篇优秀博士论文提名奖等荣誉。他是电子电气工程师学会(IEEE)高级会员,国际模式识别学会(IAPR)会士。
全文目录
一、视觉大数据
1.1 视觉大数据的来源
1.2 大规模视觉计算的特点
1.3 视觉大数据带来的挑战
1.4 大规模视觉计算的关键问题
1.5 小结
二、深度学习的发展背景
2.1 传统数据分析方法
2.2 深度学习的特点
2.3 深度学习的应用
2.4 人工神经网络的发展历程
2.5 深度学习的兴起与发展
2.6 卷积神经网络和递归神经网络
2.7 小结
三、深度学习在计算机视觉领域的应用现状
3.1 物体分割与识别
3.2 多标签图像检索
3.3 数据关系学习
3.4 视频分析
3.5 神经网络可视化
四、深度学习的的未来研究方向
4.1 深度图像分析
4.2 深度视频分析
4.3 大规模的深度学习
4.4 无监督(半监督)学习
4.5 大规模多模态学习
4.6 类脑智能研究
一、视觉大数据
1.1 视觉大数据的来源
视觉大数据的分析与理解在很多方面都有重要应用,比如休闲娱乐、自动驾驶、网络信息过滤、公安刑侦、机器人、视频监控、考勤安检等。视觉大数据的分析与理解是模式识别的前沿研究方向,也是当前比较火的人工智能突破口之一。
1.2 大规模视觉计算的特点
传统的视觉计算是对视觉信息或者数据的分析与处理,而大规模视觉计算是对大规模的视觉信息的分析与处理,它具有规模大、类别多、来源广这三个主要特点。
1.3 视觉大数据带来的挑战
在小规模的PascalVOC数据集(20类目标,小于2万张图片)上,传统算法的分析精度很容易达到90%以上。但是对于大规模的ImageNet数据集(1000类目标,130万张图片),同样的算法其分析精度通常低于75%。这也是大规模视觉计算所带来的挑战。
1.4 大规模视觉计算的关键问题
第一个关键问题,大规模特征表达。
第二个关键问题,大规模模型学习。
第三个关键问题,大规模知识迁移。
1.5 小结
在视觉大数据时代,如何能够有效地利用视觉数据来做有意义的事情?这需要研究大规模视觉计算。大规模视觉计算带来了新的挑战,包括海量庞杂、跨景夸媒、多源异质等问题。这其中包含了一些关键性问题,在算法层面有大规模特征学习、大规模模型学习、大规模知识迁移等;在系统层面有大规模数据构建问题,以及大规模视觉数据处理平台等。在视觉大数据时代,只有解决好大规模视觉计算的关键问题,才能把视觉大数据转换为视觉红利,这是非常重要的时代背景。
二、深度学习的发展背景
2.1 传统数据分析方法
2.2 深度学习的特点
深度学习可以解决端到端的模式识别问题,给定一个图像,经过“黑匣子”的学习,最终输出预测结果斑马。在这个端到端的识别的过程中,不加以区分地把特征提取和模型学习融为一体。通过深度神经网络来模拟从像素输入到“斑马”标签的非线性映射,即直接从原始数据到语义概念,这是对视觉大数据语义理解的变革性思路。
2.3 深度学习的应用
2.4 深度学习的前身,人工神经网络的发展历程
但是为什么深度神经网络在八九十年代没有流行?这和深度神经网络本身的缺陷有关。第一,深度神经网络包含着大量的参数。任意两个网络结点之间都有连接,当结点过多时,就会导致计算复杂度比较高。第二,需要大规模训练集。如果数据量不足就会导致模型过拟合。第三,相比其他的浅层模型,在识别准确率上没有明显优势。所以,在上世纪八九十年代以后,学者们更多选择手工设计特征加上浅层分类模型的策略。
为什么现在深度神经网络又会重新兴起?主要有两个方面的原因。第一是大规模数据的出现,使得模型拥有足够的数据用于训练。第二是高性能计算显著降低了数据处理的难度,而且高性能GPU的价格也开始平民化。大数据时代的到来和高性能计算的发展,恰好缓解了传统深度神经网络计算复杂度高和过拟合等问题。可以说,深度学习发展的转折点,就正是大数据和高性能计算时代的到来。
2.5 深度学习的兴起与发展
总体来说,按照模型划分,深度学习大致经历了三个主要阶段。
第一阶段,RBM/AE阶段,2006年开始
在2006年RBM的基础上,后续出现了各种RBM和AE变形。在第一个阶段,主要是生成式模型,而且所使用的数据库基本上是中等规模的,模型方面也只是采用了相对较深层次的网络。这一阶段的热点问题是替代传统的手工设计特征,直接利用数据来进行表示学习。
第二阶段,CNN卷积神经网络
ImageNet竞赛之后,CNN强大的学习能力在各个视觉应用中得到了证明。例如,DeepFace在人脸识别当中的应用,DeepPose在姿态估计中的应用,RCNN在目标检测方面的应用等。
第二个阶段模型的特点可以简单地归纳为“判别式的模型”,使用的数据规模更大,网络层次也更深,并且开始使用GPU进行并行计算。这个阶段的热点问题,是利用卷积神经网络处理静态图像相关的各种任务,并不断刷新当前最好的性能。
第三阶段,RNN阶段,从2014年开始
2.6 卷积神经网络和递归神经网络
在计算机视觉领域中应用比较广泛的模型是CNN卷积神经网络和RNN递归神经网络。
事实上,人眼在观察图像时,并不是感受整体图像,而只是观察局部的区域。受此启发,CNN在DNN的基础上替换了全连接操作,而改为局部连接的操作,也就是说一个神经元只与局部区域的神经元存在关联。此外,采用图像滤波的方式,使得不同区域的权值共享,可以显著减少模型的参数。
此外,CNN中很重要的操作就是池化(Pooling),它可以使CNN具有一定程度的平移不变性。例如,对于一个矩形框内的图像区域,框内的元素用某一种形式(例如最大值或均值等)保留,而去除其他元素。
因此,CNN的整体框架包括输入图像、卷积层、池化层,其中卷积层和池化层可以采用多层级联的方式,数量可以根据需要而设定。CNN所有的权值参数可以通过最小化模型的输出预测与真实值之间的误差来进行优化。
需要说明地是,RNN是非常深层的神经网络,尽管这里的RNN沿着时间轴仅有三步,但它不是三层的网络。这个RNN中,x1产生了h1,然后h1和x2的结合产生了h2,之后h2和x3的结合产生了h3,最后再输出,这其实是一个五层的网络模型。RNN的深度取决于输入序列的长度,短视频或者文本数据的长度一般都是大于20的,因此RNN就变成了很深层的神经网络。
如果RNN的深度大于10层,就不能有效地对长度距离相关关系进行建模。因为对所有的深度神经网络来说,增加了网络的深度,就容易在网络优化的过程中产生梯度消失或者梯度爆炸。
那么,什么是梯度消失或者梯度爆炸?下图是梯度传播公式,根据梯度的反向传播准则,误差传递到h(i)层时的梯度,其实是等于上一层h(i+1)层的梯度,乘以两类元素:第一是激活函数的导数,第二是网络的权重。如此迭代下去,等于顶层的梯度,乘以这两个元素的t次方。如果两个元素的乘积比较小(小于1),经过t次方以后,底层的梯度可能就接近零了,这被称作梯度消失;如果两个元素的乘积比较大(大于1),经过t次方以后可能非常大,就会出现梯度爆炸。所以当RNN比较深的时候,就需要解决梯度消失或者梯度爆炸的问题。
此外,还有一些更先进的网络结构可以缓解梯度消失和梯度爆炸的问题,例如LSTM和GRU模型。
卷积神经网络和递归神经网络是深度学习的两个经典模型,这两个模型在计算机视觉领域应用广泛,希望上述介绍能让大家对CNN、RNN有一个基本的了解。
三、深度学习在计算机视觉中的应用
这里主要介绍我们近来一些代表性工作的背景和主要思想。
3.1 物体分割与识别
我们当时选择典型的CNN框架,加入多通道的输入信息,利用三层上下文信息作为输入。可以采用不同尺度的框,来表示某像素周边的信息。图中显示的是以某一个位置中心点相关的三个不同尺度区域作为输入,并在CNN网络中将三个通道进行融合。CNN的训练目标是采用两个节点的二分类输出判断输入的中心点是前景还是背景。
当时我们的工作获得了竞赛特别奖,是国内性能最高的人形图像分割水平。基于这项技术,我们跟三星连续进行了两年合作,精度从之前的87%提高到95%以上,而且实时性非常好。
3.2 多标签图像检索
深度语义检索,是 CVPR2015年做的工作,是利用图像语义标签作为监督信息来学习图像间的排序。图像检索,就是任取一个图像来检索数据库里面与其相似的图像。多标签图像的特点是,每一个图像有多个不同标注。所有标签之间的语义关系,可以作为监督的信息指导CNN学习图像的表达,具体的技术细节此处不再展开。
多标签图像文本的分类与检索,是TMM2015的工作。图像的标签(文本标注)和图像所表示的语义信息是相关的,是多模态的数据。多模态数据可以通过模态的重合来更好的表示,这些表示可以进一步用于信息检索。针对多模态数据的学习,要考虑两个方面,一是模态的缺失问题,有的图像缺少标注信息,即文本是缺失的;另外就是类别标签的共生关系,有些标签是整体出现的,利用标签之间的相关关系可以提高性能。
我们提出的模型包含两个阶段,第一阶段使用传统的RBM模型,对于每一个模态分别学习其特征表示,在这个过程中可以尽量去除模态相关的特性。第二阶段,使用多标签条件的RBM来进行模态的融合及多标签的学习。如果文本、图像模态都给定,可以共同输入来融合得到共同的表示h。如果文本模态缺失,只有图像模态,则可以利用图像模态来产生文本模态,然后再进行融合。
3.3 数据关系学习
3.4 视频分析
跨视角步态识别,是TPAMI2017的工作。步态识别是通过人走路的方式进行人的身份识别。但是在不同视角下,走路外观变化是不一样的,因此步态识别必须要解决跨视角的问题。我们利用卷积神经网络,做到了当前最好的识别性能。
3.5 神经网络可视化
四、深度学习的未来研究方向
4.1 深度图像分析
4.2 深度视频分析
4.3 大规模的深度学习
4.4 无监督(半监督)学习
实际应用中,监督信息大多数都是缺失的,且标注的代价也十分高昂,因此要在充分利用标注数据的基础上进行无监督或半监督学习。
4.5 大规模多模态学习
多模态数据无处不在,不同模态数据的内容具有一致性或互补性。利用互补性可以做多模态数据的融合,进而更有效地来解决问题;利用一致性,还可以做跨模态的图像文本检索。
4.6 类脑智能研究
王亮老师的最新观点
论实际场景大规模数据集的重要性
【二〇一七年九月】很多人可能已经知道当前人工智能发展的三大要素:数据、计算力和算法,也知道数据集、计算力和算法是相辅相成、相互提升的,三者缺一不可。数据是基础,任何研究都离不开数据。在学术界,数据集的意义更加直接:没有数据集,就无法展开相应的研究工作。也许大家会有这样的疑问,什么样的数据集才能称得上经典数据集?背后的评价维度有哪些?请大家参考量子位的采访“中科院自动化所王亮:由AI Challenger漫谈数据集的重要性”。
计算机视觉研究与应用的现状与展望
【二〇一七年五月】计算机视觉是一门综合性的学科,面临着众多的机遇与挑战。视觉研究有很多重要的应用场合,近年来计算机视觉更是成为诸多人工智能科技公司研究的重要方向,越来越多的学术界专家也在向工业界转型,学术界与工业界的关注点到底有什么区别?新算法新技术不断涌现,如何看待这些新兴成果?请大家阅读来自AI大事件的专访“计算机视觉研究突飞猛进,走向实用仍任重道远”。
深度学习成为人工智能研究的重要引擎!
【二〇一五年四月】目前,深度学习成为了AI学界的主导者。它的突然回暖与计算机的计算能力相关,主要包括利用大数据来训练模型和高性能计算的普及。深度学习现有的成功案例大多是处理静态数据,而我们处在一个快速变化的环境里,对时序、动态变化的数据建模和分析更加重要,这是深度学习面临的新机会。随着相关学科的发展,特别是脑科学、神经科学、计算心理学等的重大突破,相信在未来若干年里,深度学习在理论和应用方面会有更大的发展。更加详细的观点解读请大家参阅来自思想坦克的专访“王亮:深度学习引领AI新潮流”。
感谢AIDL志愿者王鑫、黄岩、宋纯锋协助整理!
志愿者持续招募中,有意者联系微信号“AIDL小助手(ID:must-tech)”
历史文章推荐:
[AIDL1][附PPT]山世光:从人脸识别看深度学习对计算机视觉的推动及挑战
讯飞大数据研究院谭昶:讯飞大数据的实践与思考【上】| 附PPT下载
UCLA朱松纯: 正本清源·初探计算机视觉的三个源头、兼谈人工智能
Rutgers大学熊辉教授:《易经》如何指导我们做人工智能?